Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 Kimi-VL: VLM с MoE, ризонингом и контекстом 128K.

Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.

Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.

Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.

Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.

Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.

В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.

Модели доступны на Hugging Face в двух вариантах:

🟢Kimi-VL-A3B-Instruct для стандартных задач;

🟠Kimi-VL-Thinking для сложных рассуждений.

▶️ Инференс через Transformers занимает несколько строк кода — достаточно загрузить изображение, задать запрос и получить подробный ответ.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #KimiAI #MoonShotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2255
Create:
Last Update:

🌟 Kimi-VL: VLM с MoE, ризонингом и контекстом 128K.

Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.

Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.

Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.

Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.

Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.

В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.

Модели доступны на Hugging Face в двух вариантах:

🟢Kimi-VL-A3B-Instruct для стандартных задач;

🟠Kimi-VL-Thinking для сложных рассуждений.

▶️ Инференс через Transformers занимает несколько строк кода — достаточно загрузить изображение, задать запрос и получить подробный ответ.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #KimiAI #MoonShotAI

BY Data Science by ODS.ai 🦜







Share with your friend now:
tg-me.com/opendatascience/2255

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Telegram announces Search Filters

With the help of the Search Filters option, users can now filter search results by type. They can do that by using the new tabs: Media, Links, Files and others. Searches can be done based on the particular time period like by typing in the date or even “Yesterday”. If users type in the name of a person, group, channel or bot, an extra filter will be applied to the searches.

Telegram Auto-Delete Messages in Any Chat

Some messages aren’t supposed to last forever. There are some Telegram groups and conversations where it’s best if messages are automatically deleted in a day or a week. Here’s how to auto-delete messages in any Telegram chat. You can enable the auto-delete feature on a per-chat basis. It works for both one-on-one conversations and group chats. Previously, you needed to use the Secret Chat feature to automatically delete messages after a set time. At the time of writing, you can choose to automatically delete messages after a day or a week. Telegram starts the timer once they are sent, not after they are read. This won’t affect the messages that were sent before enabling the feature.

Data Science by ODS ai 🦜 from ca


Telegram Data Science by ODS.ai 🦜
FROM USA